Telegram Group & Telegram Channel
🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/980
Create:
Last Update:

🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/980

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

What is Telegram?

Telegram is a cloud-based instant messaging service that has been making rounds as a popular option for those who wish to keep their messages secure. Telegram boasts a collection of different features, but it’s best known for its ability to secure messages and media by encrypting them during transit; this prevents third-parties from snooping on messages easily. Let’s take a look at what Telegram can do and why you might want to use it.

Библиотека собеса по Data Science | вопросы с собеседований from ye


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA